#características latentes

Del aislamiento al enredo: ¿Separación de conceptos en interpretabilidad?

Los métodos de interpretabilidad (SAEs, sondas) buscan separar conceptos, pero manipular características afecta múltiples conceptos, desafiando la independencia

2026-06-12 · 2 min

Optimización en dos etapas para eludir copyright en difusión

El método TS-LFO elude defensas de copyright en modelos de difusión con optimización latente en dos etapas, superando a DiffPure, GrIDPure e IMPRESS.

2026-06-10 · 3 min

Características latentes en LLMs: alineando semántica y mecanismos

Nuevo método no supervisado identifica modos de continuación en LLMs alineando semántica y atribuciones mecanicistas para auditar mecanismos internos.

2026-06-09 · 1 min